Loading...
机构名称:
¥ 3.0

在本文中,我们研究了具有基于一般模型的函数近似值的均值控制(MFC)和均值野外游戏(MFC)和均值野外游戏(MFC)的基本统计效率。我们引入了一个称为基于均值模型的Eluder Dimension(MF-MBED)的新概念,该概念构成了均值模型类的固有复杂性。我们表明,富裕的平均RL问题家族表现出低MF膜。此外,我们提出了基于最大似然估计的al-gorithms,它可以返回MFC或MFG的ε-纳什平衡势。总体样品复合物仅取决于多项式膜,该MF膜可能比州行动空间的大小低得多。与先前的作品相比,我们的结果只需要刻薄的假设,包括可靠性和Lipschitz的连续性。

arxiv:2305.11283v5 [cs.lg] 2024年10月2日

arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第1页

arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第2页

arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第3页

arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第4页

arxiv:2305.11283v5 [cs.lg] 2024年10月2日PDF文件第5页

相关文件推荐

2024 年
¥1.0
1900 年
¥1.0
2024 年
¥7.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2020 年
¥1.0